AI-startap Anthropic optužen za agresivno scrape-ovanje podataka sa veb stranica

Web-izdavači se žale: Programer neovlašćeno prikuplja sadržaje za obuku veštačke inteligencije i ignoriše zahteve da prestane.

28. 7. 2024. 13:12
Eulerpool News 28. јул 2024. 13:12

Startup za veštačku inteligenciju Anthropic optužen je za agresivno skupljanje podataka sa veb stranica radi treniranja svojih sistema, pri čemu možda krši uslove korišćenja izdavača, navode pogođene strane.

Razvijači veštačke inteligencije oslanjaju se na velike količine podataka iz različitih izvora kako bi kreirali velike jezičke modele koji čine tehnologiju iza chatbotova poput OpenAI-jevog ChatGPT-a i Claude-a, konkurenta iz kompanije Anthropic.

Anthropic su osnovali bivši istraživači iz OpenAI i obećavaju da će razviti „odgovorne“ AI sisteme. Ipak, Matt Barrie, CEO Freelancer.com, optužuje kompaniju sa sedištem u San Francisku da je „daleko najagresivniji scraper“ njegove Freelancer platforme, koja beleži milione poseta dnevno.

Drugi veb-izdavači dele Barijeve zabrinutosti da Anthropic preplavljuje njihove sajtove i ignoriše njihove zahteve da prestanu sa prikupljanjem sadržaja. Prema Barijevim rečima, Freelancer.com je u roku od četiri sata primio 3,5 miliona poseta od veb-pauka povezanog sa Anthropic-om. „To je verovatno oko pet puta više od broja dva“, rekao je Bari.

Posete preko ovog bota nastavile su da rastu, iako je Freelancer.com pokušao da onemogući pristup standardnim protokolima. Barrie je tada odlučio da blokira sav saobraćaj sa IP adresa Anthropica. „Morali smo da ih blokiramo jer se ne pridržavaju pravila interneta“, rekao je Barrie. „Ovo flagrantno skriptovanje usporava sajt za sve korisnike i na kraju utiče na naše prihode.“

Anthropic je obavestio da istražuje slučaj i poštuje zahteve izdavača da ne bude „nametljiv ili uznemirujući“.

Istraživanje javno dostupnih podataka je generalno legalno, ali može prekršiti uslove korišćenja sajtova i biti skupo za vlasnike sajtova. Kyle Wiens, izvršni direktor iFixit.com, rekao je da je njegova stranica za popravku elektronike primila milion pristupa od Anthropics botova u roku od 24 sata. „Imamo mnogo alarma za visok protok podataka koji bude ljude u 3 sata ujutru. Ovo je aktiviralo sve naše alarme“, rekao je.

Uslovi upotrebe iFixita zabranjuju upotrebu njihovih podataka za mašinsko učenje. "Moja prva poruka Anthropic-u glasi: Ako ovo koristite za obuku vašeg modela, to je nelegalno. Moja druga poruka je: Ovo nije pristojno internet ponašanje. Crawling je pitanje etike.

Web stranice koriste protokol „robots.txt“ kako bi sprečile crawlere i druge web robote da pristupe određenim delovima njihovih stranica, što se zasniva na dobrovoljnom pridržavanju. Anthropic je rekao da njihovi crawleri poštuju „tehnologije protiv zaobilaženja“ kao što su CAPTCHA i da „naše pretrage ne bi trebalo da budu nametljive ili ometajuće“.

Ekstrakcija podataka drastično je porasla u poslednje dve godine zbog trke u naoružanju veštačke inteligencije, što je izazvalo nove troškove za vlasnike veb-sajtova. „AI-crawleri su nam prouzrokovali značajne troškove za širinu pojasa i oduzeli mnogo vremena za rešavanje zloupotrebe“, napisao je Erik Holscher, suosnivač sajta za hosting dokumentacije Read the Docs, u blog postu.

Anthropic je stvorio neke od najnaprednijih chatbotova na svetu, koji su konkurencija OpenAI-ovom ChatGPT-u, i pozicionira se kao etički akter. Izraženi cilj kompanije Anthropic je "odgovorno razvijanje i održavanje napredne veštačke inteligencije za dugoročne koristi čovečanstva".

Dok vodeće AI kompanije razvijaju sve moćnije modele, one dublje prodiru u neistražene delove interneta, sarađuju sa izdavačima ili stvaraju sintetičke podatke za obuku. OpenAI je u poslednjih nekoliko meseci sklopio nekoliko ugovora sa izdavačima i dobavljačima sadržaja kao što su Reddit, The Atlantic i Financial Times. Anthropic nije javno objavio slična partnerstva.

„Pretraživači su oduvek mnogo prikupljali podatke“, rekao je Bari, „ali obukom generativne veštačke inteligencije to je dostiglo potpuno novi nivo.“

Misija iFixita je da deli informacije kako bi ohrabrio ljude na samostalne popravke. "Nemamo ništa protiv da koriste naš sadržaj za obuku modela, samo želimo biti deo razgovora", rekao je Wiens. "Nisam krstaš u ovoj stvari, samo pokušavam da održim veb sajt aktivnim.

Napravi najbolje investicije svog života.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Od 2 evra osigurajте

Vesti